第二章随机变量及其分布

随机变量

上一章节里提到过，一个试验的样本空间里包括所有可能出现的事件，即样本点。有时我们并不关心每一个单独的事件的概率，而是某一类事件的概率；或者，有时样本空间里的样本难以描述，我们需要找一些替代的表示方式。为了应付此类场景，我们设定一个转换的函数 $X = X (e)$ ，其中 $e$ 是样本点。这个函数就是所谓的 随机变量 。

随机变量本质上就是 可测函数 ，相当于把样本点进行编码方便表示，不过这个“编码”不一定是整数。

用形式化的方式来表示就是：
$(Ω F P) \overset{X}{\to} (Q β P_{X^{- 1}})$
其中 $Ω$ ：样本空间， $F$ ：事件域， $P$ ：概率分布， $X$ ：随机变量
$Q$ ：转化后的样本空间， $β$ ：转化后的事件域， $P_{X^{- 1}}$ ：转化后的概率分布（导出分布）
可知： $X^{- 1} (β) \in F, P_{X^{- 1}} = P (X^{- 1} (B))$

据我的概率论老师所说，他面试数学专业的研究生时会问：什么是随机变量？
看了上面那两段话的就知道应该回答：随机变量就是可测函数
~~但是他所面试的那些学生都答不上来，要么是答“emmm，随机的变量？”，要么是答非所问扯一堆其他的数学定理，这是妥妥的反面案例，大家不要学~~

函数 $X$ 是实值单值函数，这意味着它将每个事件都用一个实数来形容。设 $L$ 是实数集合，则

P {X \in L} = P {e ∣ X (e) \in L}

离散型随机变量及其分布律

当随机变量 $X$ 这个函数的取值是一些离散的点时，我们称其为离散型随机变量。

对于 $X$ 的每个取值，我们都得给它分配一个概率，即 $P {X = x_{k}} = p_{k}, k = 1, 2, \dots$
上面这个式子其实就展现了这个随机变量每个取值的概率的分布规律，我们使用分布律这个词来表示。对于离散的随机变量，我们也可以用表格来表示分布律：

$X$	$x_{1}$	$x_{2}$	$\dots$	$x_{1}$
$p_{k}$	$p_{1}$	$p_{2}$	$\dots$	$p_{1}$

接下来介绍几种常见且重要的分布律：

（0-1）分布

如果 $X$ 的取值只可能有 0 或 1 两种，那么我们称这种分布律为（0-1）分布（或者两点分布）。

P {X = k} = p^{k} (1 - p)^{1 - k}, k = 0, 1 (0 < p < 1)

参数 $p$ 指的是 $X$ 取值为 1 的概率。

伯努利实验、二项分布

如果一个实验的结果只有两种结果 $A$ 和 $\bar{A}$ ，我们称其为伯努利实验。
而若将伯努利实验独立地重复 $n$ 次，我们称其为n重伯努利实验。
（独立这个条件很重要，原因想必不用多说）
我们用 $b$ 表示二项分布
$X \sim b (n, p)$ 表示 $X$ 的分布律是进行了 $n$ 次实验、事件 $A$ 的概率为 $p$ 的二项分布

P {X = k} = (\binom{n}{k}) p^{k} (1 - p)^{n - k}, k = 0, 1, \dots, n

上式描述了n重伯努利实验的分布律，其中 $X$ 的取值表示：在这 n 次实验中结果为 $A$ 的次数，或者说是事件 $A$ 发生的次数。
这个公式很符合直觉。比如说抛硬币时，我们假定正面的概率是 $p$ ，那么反面的概率就是 $1 - p$ 。总共抛的这 n 次硬币的结果构成了一个大小为 $2^{n}$ 的样本空间，在其中有 $(\binom{n}{k})$ 个样本点能符合 $X (e) = k$ 这个条件，而每个这样的样本点的发生概率都是 $p^{k} (1 - p)^{n - k}$ 。

可以注意到，(0-1)分布就是伯努利分布的一种特例，相当于只做了1次实验，且 $A = 1, \bar{A} = 0$ 。

泊松分布

在很多现实场景里我们还会遇到这样的分布：

P {X = k} = \frac{λ^{k} e^{- λ}}{k!}, k = 0, 1, 2, \dots

其中 $λ$ 是大于0的参数，此时这个分布称为泊松分布，记为 $X \sim π (λ)$

这个分布能够满足总概率为1，证明如下：
$\sum_{k = 0}^{\infty} P {X = k} = \sum_{k = 0}^{\infty} \frac{λ^{k} e^{- λ}}{k!} = e^{- λ} \sum_{k = 0}^{\infty} \frac{λ^{k}}{k!}$
由泰勒展开我们知道， $e^{λ} = \sum_{k = 0}^{\infty} \frac{λ^{k}}{k!}$
可知原式 $= e^{- λ} e^{λ} = 1$

关于这个分布还有一个很有用的定理 泊松定理：

lim_{n \to \infty} (\binom{n}{k}) p_{n}^{k} (1 - p_{n})^{n - k} = \frac{λ^{k} e^{- λ}}{k!}, λ = n p_{n}

可以看出（真能看出吗，汗），这个式子将二项分布转化成了泊松分布。由于二项分布的计算有时计算量过大（哪怕对于计算机来说也是如此），所以在n很大的时候我们可以通过下式来近似地计算。

(\binom{n}{k}) p_{n}^{k} (1 - p_{n})^{n - k} \approx \frac{λ^{k} e^{- λ}}{k!}, λ = n p

这也叫做用泊松分布逼近二项分布。

上面这些是根据这本教材写的，下面是另一条思考路径，可能会更清晰且更好理解。

我们可以这样理解二项分布：

将一段时间分成 $n$ 段（比如说将一个小时分成 60 分钟），根据某一次历史实验数据，我们知道在那一次实验中，某个事件在这段时间内总共发生了 $λ$ 次（对于每一小段时间，如果事件发生了便计数1，因此 $λ \leq n$ ），我们假定该事件在每一小段时间内发生的概率就等于平均值，即 $p = \frac{λ}{n}$ 。
在新一次的实验中，这一段时间内该事件发生 $k$ 次的概率，就等于 $(\binom{n}{k}) p^{k} (1 - p)^{n - k}$
上述是二次分布的内容，那么我们会想到这样一个问题：
对每一小段时间内该事件发生的概率的估计，是不是草率了点？
如果在某一分钟内，该事件发生了多次，那么总概率的估计不就有偏差了吗？（而且是偏小）

自然想到，将 $n$ 增大，相当于尽量使得每一小段时间内事件发生的次数不会超过1，这样就能提高结果的精度，将 $n$ 增到无限大，理论上就保证无偏差了！

$lim_{n \to + \infty} (\binom{n}{k}) p^{k} (1 - p)^{n - k} = lim_{n \to + \infty} \frac{n!}{(n - k)! k!} (\frac{λ}{n})^{k} (1 - \frac{λ}{n})^{n - k}$
$= lim_{n \to + \infty} \frac{n!}{(n - k)! k!} \frac{λ^{k}}{n^{k}} e^{- λ}$
（ $lim_{n \to + \infty} \frac{\frac{n!}{(n - k)!}}{n^{k}} = 1$ （分号上下均有 k 项））
$= lim_{n \to + \infty} \frac{λ^{k} e^{- λ}}{k!}$

算完一看，这不就是泊松分布吗？！
没错，泊松分布其实就是二项分布在 $n \to \infty$ 情况下的推广
现在回头看用泊松分布逼近二项分布，是不是就觉得理所当然了？

这这样一个语境下，泊松分布的含义就是：
已知在一段已过去的时间内某事件发生了 $λ$ 次，在下一段相同时间内该事件可能发生的次数所对应的概率

从中我们也能发现泊松分布和二项分布各自适用的场景：
二项分布适合用在“实验次数”之类的场合，因为次数是离散的；而泊松分布适合用在“时间”或“空间”之类的场合，因为连续的时间或空间区间是可无限细分的。

下面这几种对于离散数据的分布，虽然书里没有单独提出，但我也一并在此介绍：

第二章随机变量及其分布

随机变量

离散型随机变量及其分布律

（0-1）分布

伯努利实验、二项分布

泊松分布

帕斯卡分布/负二项分布

几何分布

超几何分布

随机变量的分布函数